[IJCAI 2022] C3-STISR: 基于三重线索引导的场景文本图像超分辨率方法(有源码)
一、研究背景
场景文本图像超分辨率(STISR)作为一种重要的图像预处理技术,能够显著降低低分辨率文本图像的识别难度,提升识别模型性能。早期的方法[1-3]将 STISR任务视为一般的超分辨率(SR)问题,仅利用像素级损失函数捕获的像素级信息来恢复 LR 图像,如图1(a)所示。然而,这些方法忽略了文本图像所特有的文本特征信息,因而无法实现最佳的性能。
最新的一些方法[4-7]提出关注图像的文本特征,并利用文本信息来引导高分辨率文本图像的重建,如图1(b)所示。这些方法通常引入额外的识别器,使用识别器的识别结果作为指导超分辨率的线索。例如,[4][5]提出使用一个预训练好的识别网络对所恢复的文本内容进行监督,并通过识别器提供的注意力热图对每个字符进行定位; [6][7]提出使用识别网络输出的文本概率分布作为图像的文本先验知识,更好地对超分过程进行语义指导。尽管上述方法的性能取得了显著提升,但直接使用识别器的反馈仍存在两个问题:1)模态兼容性问题。识别器的输出是概率分布(PD)的形式,它与STISR这一低级的像素级视觉任务有明显的模态差距,因此存在模态兼容性问题。2)不准确。识别器的识别结果通常不准确(CRNN[8]在LR/HR图像的识别准确率仅为26.8%/72.4%),因而会误导后续的超分辨率重建。
因此,基于对现有方法的思考,作者提出了一种新的场景文本图像超分辨率方法C3-STISR。该方法联合使用识别器的反馈、视觉信息和语言信息等三重线索(Triple Clues)来指导超分过程,如图1(c)所示。具体来说,视觉线索是根据识别器预测的文本序列来绘制图像,并从所绘制的文本图像中提取到的图像特征;由于视觉线索与STISR任务更兼容,因此能够得到更好的超分效果(如图1(c)中,由于视觉线索的使用,获得了更清晰的字符“B”)。而语言线索是由预训练好的的语言模型生成的,它能够校正预测的文本(在图1(c)中,“Blrd”被校正为“Bird”)。此外,由于这些线索具有不同的形式,该方法设计了一个线索提取模块以分别提取识别、视觉和语言线索,并设计了一个门控融合模块将三重线索融合为一个综合的、统一的超分辨率重建引导信号
二、方法和原理简述
C3-STISR的整体网络结构如图2所示,网络由两个主要组件组成:主干网络
2.1线索生成器
线索生成器
2.1.1 线索提取分支
识别线索
首先计算识别线索
视觉线索
视觉线索提取器的目标是根据识别器预测的文本序列来绘制图像,并从所绘制的文本图像中提取的图像特征。为此,首先将概率分布解码为文本字符串
语言线索
语言线索提取器通过语言模型
2.1.2线索融合分支
利用线索提取分支,得到识别线索
2.2主干网络
主干网络包含一个STN网络,和五个改进的TSRN块;主干网络在融合线索的引导下恢复低分辨率图像。并采用L2损失
三、主要实验结果
作者在TextZoom数据集上对所提出的方法进行了评估,C3-STISR与SOTA方法在CRNN、ASTER、MORAN三种文字识别网络上的识别精度对比如表1所示。可以看到,C3-STISR显著提高了识别精度,例如,将CRNN准确性从48.9%提高到53.7%(增加4.8%)。
C3-STISR与SOTA方法在图像评测指标PSNR、SSIM上的对比如表2所示,实验结果证明了该方法在保真度方面同样优于现有方法。图3中可视化了一些示例,如图3所示,与其他方法相比,C3-STISR可以更好地恢复模糊像素。
表2 TextZoom数据集上的保真度(PSNR、SSIM)比较
此外,作者还做了很多消融实验以证明各模块设计的有效性,具体实验细节请查阅原论文。
四、总结和讨论
论文地址:https://arxiv.org/abs/2204.14044
开源代码:https://github.com/ zhaominyiz/C3-STISR.
参考文献
[1] Chao Dong, Chen Change Loy, Kaiming He, and Xiaoou Tang. Image super-resolution using deep convolutional networks. TPAMI, 38(2):295–307, 2015.
[2] Yulun Zhang, Kunpeng Li, Kai Li, Lichen Wang, Bineng Zhong, and Yun Fu. Image superresolution using very deep residual channel attention networks. In ECCV, pages 286–301, 2018
[3] Tao Dai, Jianrui Cai, Yongbing Zhang, Shu-Tao Xia, and Lei Zhang. Second-order attention network for single image super-resolution. In CVPR, pages 11065–11074, 2019.
[4] Jingye Chen, Bin Li, and Xiangyang Xue. Scene text telescope: Text-focused scene image super-resolution. In CVPR, pages 12026–12035, 2021.
[5] Jingye Chen, Haiyang Yu, Jianqi Ma, Bin Li, and Xiangyang Xue. Text gestalt: Stroke-aware scene text image super-resolution. In AAAI, pages 285–293, 2022.
[6] Jianqi Ma, Shi Guo, and Lei Zhang. Text prior guided scene text image super-resolution. arXiv preprint arXiv:2106.15368, 2021.
[7] Jianqi Ma, Zhetong Liang, and Lei Zhang. A text attention network for spatial deformation robust scene text image super-resolution. In CVPR, pages 5911–5920, 2022.
[8] Baoguang Shi, Xiang Bai, and Cong Yao. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. TPAMI, 39(11):2298–2304, 2016.
[9] Minyi Zhao, Yi Xu, and Shuigeng Zhou. Recursive fusion and deformable spatiotemporal attention for video compression artifact reduction. In MM, pages 5646–5654, 2021
[10] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In ICCV, pages 764– 773, 2017.
[11] Shancheng Fang, Hongtao Xie, Yuxin Wang, Zhendong Mao, and Yongdong Zhang. Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition. In CVPR, pages 7098–7107, 2021.
撰稿:孔宇昕
编排:高 学
审校:连宙辉
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)
[ACM MM 2022] 解耦检测与识别:单阶段自依赖场景文本识别器
[ECCV 2022] CoMER: 基于Transformer与覆盖注意力机制建模的手写数学公式识别(已开源)
[ECCV 2022] 场景文字端到端识别中的全局到局部注意
[ECCV2022] MGP-STR:一种基于视觉Transformer的多粒度文字识别方法(已开源)
[IEEE TMM 2022] |手写汉字纠错的树结构分析网络
[SIGGRAPH 2022] 利用真实数据来提升文档图像矫正性能(有源码)
[IEEE TIP 2022] | 基于EM算法的混合监督场景文本检测
[ACM 2022] 基于判别式和生成式的自监督文本图像识别方法
[TMM 2022] | 基于多层次跨模态模仿学习的跨语言文本图像识别与翻译方法
欢迎加入中国图象图形学学会!(附入会攻略)
征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。
扫码关注,获取最新OCR资讯